Taller 1

20582- Anàlisi de Dades

Author

Joan Camps Tomas

Published

November 13, 2024

Enllaç d’accés al repositori del treball.

Introducció

En els dos darrers anys han irromput amb força les eines d’intel·ligència artificial (a partir d’ara, IA) en el món educatiu. Se creu que l’impacte que això pot tenir sobre els estudiants i les seves competències no té precedents, i s’estan prenent mesures al respecte. Alguns consideren que l’ús abusiu d’aquestes eines per part dels estudiants empitjora el seu aprenentatge. Aquesta és precisament la hipòtesi que posarem a prova: l’ús (habitual) d’IA empitjora la qualitat d’aprenentatge dels estudiants universitaris.

Per avaluar la hipòtesi, es recullen les dades que a continuació s’especifiquen (en la majoria de casos, significa respondre una pregunta). Les 4 primeres són quantitatives, les 2 posteriors són nominals, i les 3 darreres, ordinals

  • Nota mitjana cursos 2021, 2022
  • Nota mitjana cursos 2023, 2024
  • Hores setmanals d’estudi convencional (fora IA)
  • Hores setmanals d’ús d’eines d’IA
  • Quin tipus de grau estudies? (Ciències formals, Enginyeries, Humanitats, Social)
  • Fas servir eines IA de pagament? (Si, No) Preguntes a contestar amb Gens-Poc-Suficient-Bastant-Molt
  • Quina importància dones a la IA?
  • Consider que amb la IA m’esforç manco.
  • Consider que tot els resultats que obtenc amb IA els sabria replicar pel teu compte.

Per comprovar la validesa de la hipòtesi, per una banda, si els estudiants amb millors notes utilitzen molta IA, i per l’altra ho comprovarem entre aquells estudiants que han millorat o empitjorat més les qualificacions. També, comprovarem la seva valoració subjectiva.

Recol·lecció de dades.

El primer pas consisteix en crear una taula amb les dades que es faran servir per dur a terme l’estudi. Una vegada obtingudes les dades, afegim una nova variable que sigui la diferència entre les notes obtingudes abans i després de la IA. Com que les dues variables a restar són normals multivariants, la nova variable també ho serà

Rows: 150
Columns: 10
$ notes_pre_IA <dbl> 9.6, 4.8, 10.0, 2.0, 9.0, 10.0, 4.6, 5.5, 4.8, 6.6, 3.0, …
$ notes_IA     <dbl> 8.6, 6.5, 7.5, 1.0, 2.0, 6.1, 6.8, 3.1, 2.8, 10.0, 2.2, 4…
$ dif_notes    <dbl> -1.0, 1.7, -2.5, -1.0, -7.0, -3.9, 2.2, -2.4, -2.0, 3.4, …
$ hores_est    <dbl> 11.6, 12.8, 11.0, 10.5, 10.9, 13.1, 9.8, 10.1, 14.0, 9.5,…
$ hores_IA     <dbl> 6.4, 4.1, 3.8, 3.2, 2.6, 4.1, 6.7, 2.5, 2.7, 7.1, 5.9, 7.…
$ estudis      <chr> "Socials", "Tecnics", "Ciencies", "Tecnics", "Socials", "…
$ pagament     <chr> "No", "No", "No", "No", "No", "No", "No", "No", "No", "Si…
$ importancia  <ord> Gens, Suficient, Poc, Suficient, Poc, Gens, Bastant, Bast…
$ esforç       <ord> Suficient, Suficient, Bastant, Molt, Bastant, Poc, Sufici…
$ replicar     <ord> Suficient, Poc, Gens, Bastant, Suficient, Poc, Gens, Poc,…

Anàlisi descriptiu

Cal fer un primer comentari sobre la naturalesa de les dades. Per construcció ja sabem que cada varaible seguirà una distribució normal. Així idò, farem aquesta assumpció d’ara en endavant.

Descrivim a trets generals el conjunt de dades, centrant-nos en aquells aspectes que ens interessen per provar o no la hipòtesi plantejada. S’han agrupat segons la branca de coneixement del grau universitari.

Com era d’esperar, es dona una correlació positiva força significativa entre la mitjana de les notes dels estudiants abans i després de l’adveniment de la IA, especialment en la branca de ciències; i entre les hores d’estudi i les notes obtingudes abans de la IA. Havent aparegut la IA aquesta darrera tendència es segueix notant, però manco significativa (aquí és on podria començar-se a notar un primer efecte d’aquestes eines). A més, la correlació entre les hores d’ús de IA i la diferència de les notes és postiva (això és, un ús creixent de la IA porta a un creixement en la millora de les notes respecte a abans de la IA). Per altra banda, destaca una correlació negativa notable entre les hores d’ús de eines d’IA i les hores d’estudi tradicional (és a dir, a mesura que els estudiants mostren més hores d’estudi, empren manco la IA), especialment en els alumnes d’humanitats. També, es dona una correlació negativa entre les notes abans de la IA, i les hores d’ús que en fan una vegada la seva irrupció.

Centrant-nos en els objectius de l’estudi, comprovem si dues de les correlacions són significatives.


    Pearson's product-moment correlation

data:  IA_estudiants$hores_IA and IA_estudiants$dif_notes
t = 4.2621, df = 148, p-value = 3.589e-05
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.1799126 0.4661989
sample estimates:
      cor 
0.3306408 

    Pearson's product-moment correlation

data:  IA_estudiants$hores_IA and IA_estudiants$hores_est
t = -5.2865, df = 148, p-value = 4.391e-07
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.5252558 -0.2545392
sample estimates:
      cor 
-0.398543 

Així idò, unes primeres observacions a destacar són el fet que hi ha una correlació positiva entre les hores d’ús d’IA i la la millora en les qualificacions, juntament amb una correlació negativa entre les hores d’estudi convencional i d’ús de IA. De fet, com que els p-valors dels contrasts anteriors són ínfims, podem dir que es poden extendre a la població.

Quant a les mitjanes, sembla ser que la mitjana de diferència entre les notes dels distints tipus de carrera és la mateixa, mentre que hi ha una diferència entre les mitjanes d’ús d’IA per tipus de grau. Comprovem-ho amb un ANOVA d’una via.

             Df Sum Sq Mean Sq F value Pr(>F)
estudis       3   14.6   4.876   0.585  0.626
Residuals   146 1216.9   8.335               
             Df Sum Sq Mean Sq F value Pr(>F)
estudis       3    5.9   1.954   0.744  0.528
Residuals   146  383.6   2.628               

Ara bé, els p-valors en els dos casos són molt elevats, i no podem dir que hi hagi diferència significativa entre les mitjanes de dites variables.

par(mfrow = c(1, 2))

df_3 <- IA_estudiants %>%
    group_by(replicar) %>%
    summarise(count = n())
df_2 <- IA_estudiants %>%
    group_by(esforç) %>%
    summarise(count = n())

bp = barplot(df_3$count, beside = TRUE, names.arg = df_3$replicar, las = 2,
        main = 'Puc replicar tasca IA', ylim = c(0,max(df_3$count)+5))
text(bp, df_3$count, df_3$count, pos = 3, xpd = NA)

bp = barplot(df_2$count, beside = TRUE, names.arg = df_2$esforç, las = 2,
        main = 'Manco esforç degut a IA', ylim = c(0,max(df_2$count)+5))
text(bp, df_2$count, df_2$count, pos = 3, xpd = NA)

Observant les gràfiques anteriors, veim que d’entre els estudiants enquestats, n’hi ha més que asseguren no saber replicar els resultats obtinguts amb ajuda de la IA que els que sí saben fer-ho; i la majoria assumeix que gràcies a la IA s’esforça manco en els estudis.

Calculem ara la variància generalitzada i la variància total de les dades.

[1] "Variància generalitzada"
[1] 1.323302e-12
[1] "Variació total"
[1] 33.06515

Com que la variància generalitzada és molt menor a la variació total, deduim que les variables estan força correlacionades, o dit altrament, hi ha redundància entre elles. De fet, si ens fixam el el gràfic presentat, la primera línia de cada grup de correlacions indica la de tota la variable, i veim que en tots els casos es presenten correlacions notables entre les parelles de variables.

Modelització multinomial

Considerem la vairable aleatòria “replicar”, que dona resposta a l’afirmació “Consider que tot els resultats que obtenc amb IA els sabria replicar pel teu compte”. La modelitzarem com una distribució multinomial. Per això, haurem d’estimar els seus paràmetres: \[ X_{replicar} \sim \text{Multinomial}(n=150, \theta = (\theta_{gens}, \theta_{poc}, \theta_{suficient}, \theta_{bastant}, \theta_{molt})) \]

Evidentment, farem servir l’estimador de màxima versemblança per a cada probabilitat, el qual coincideix amb la freqüència obtinguda en la mostra.

A partir de dit model, vegem la probabilitat d’obtenir una seqüència de respostes molt concreta. De 20 estudiants, que 5 afirmin que saben replicar “suficient”, 5 “bastant” i 10 “molt” allò que obtenen de la IA.

[1] 1.626309e-11

Suposant un escenari quotidià, possiblement els estudiants no afirmin que saben replicar perfectament tot allò que consulten o que no en saben gens, sinó que tendeixin a valors més neutres. Vegem la probabilitat que 3 afirmin que no saben replicar “gens”, 12 “poc”, 4 “suficient” i 1 “bastant” allò que obtenen de la IA.

[1] 7.252626e-06

Més interessant pel nostre cas pot ser modelitzar una binomial on es combinin per una banda les respostes de “gens” i “poc” i per altra la resta. Així, volem veure la probabilitat que de 20 estudiants, la meitat assumeixin que no saben replicar allò que produeix la IA.

[1] 0.04897201

Segons el model, hi ha una probabilitat del 15% que la meitat dels 20 estudiants enquestats no sàpiga replicar-ho.

Regressió multivariable

Provem de modelitzar la variable \(X_{\text{notesIA}}\) a partir de les altres tres variables quantitatives. Això és: \[ Y=X_{\text{notesIA}} = \beta_0 + \beta_1 X_{\text{notesPreIA}} + \beta_2 X_{\text{horesEst}} + \beta_3 X_{\text{horesIA}} + \epsilon \]


Call:
lm(formula = notes_IA ~ notes_pre_IA + hores_est + hores_IA, 
    data = IA_estudiants)

Residuals:
    Min      1Q  Median      3Q     Max 
-7.2165 -1.8031 -0.0235  1.7481  5.4950 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)  -0.53504    1.48818  -0.360    0.720    
notes_pre_IA  0.54710    0.08761   6.245 4.38e-09 ***
hores_est     0.08925    0.09476   0.942    0.348    
hores_IA      0.43911    0.13952   3.147    0.002 ** 
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.509 on 146 degrees of freedom
Multiple R-squared:  0.2703,    Adjusted R-squared:  0.2553 
F-statistic: 18.03 on 3 and 146 DF,  p-value: 5.242e-10

Veim que una dels coeficients té un p-valor associat gran, de manera que repetim la regressió fora tenir en compte la variable \(X_{\text{horesEst}}\). Si aquest model fos precís, podríem extreure una conclusió ben interessant: la nota actual dels estudiants s’explica amb la nota que solien treure i l’ús que fan de les eines de la IA, mentre que les hores d’estudi convencional dedicades no són rellevants. \[ Y=X_{\text{notesIA}} = \beta_0 + \beta_1 X_{\text{notesPreIA}} + \beta_2 X_{\text{horesIA}} + \epsilon \]


Call:
lm(formula = notes_IA ~ notes_pre_IA + hores_IA, data = IA_estudiants)

Residuals:
    Min      1Q  Median      3Q     Max 
-7.0290 -1.7970 -0.0634  1.9050  5.5293 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)   0.52110    0.97808   0.533  0.59499    
notes_pre_IA  0.57996    0.08033   7.220 2.59e-11 ***
hores_IA      0.39729    0.13222   3.005  0.00313 ** 
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.508 on 147 degrees of freedom
Multiple R-squared:  0.2659,    Adjusted R-squared:  0.2559 
F-statistic: 26.62 on 2 and 147 DF,  p-value: 1.363e-10
# Install the plotly package if needed
# install.packages("plotly")
library(plotly)

# Generate fitted values
fitted_values <- fitted(model_notes)

# Create a 3D scatter plot
plot_ly(x = ~IA_estudiants$notes_pre_IA, y = ~IA_estudiants$hores_IA, z = ~IA_estudiants$notes_IA, type = 'scatter3d', mode = 'markers') %>%
  add_trace(z = ~fitted_values, mode = 'lines', name = 'Regression Plane', line = list(color = 'red'))

Ara sí, tots els dos coeficients surten significatius. Tot i així, veim que el valor \(R^2\) ajustat surt de 0.2559, que no és massa gran. No diríem que és una bona aproximació.

Calculem la funció d’score d’aquest darrer model. Tenim el model com \[ Y = \textbf{X}\beta + \epsilon \] on \(\textbf{X}= (1,\textbf{X}_{\text{notesPreIA}}, \textbf{X}_{\text{horesIA}})\), \(\beta = (\beta_0, \beta_1, \beta_2)'\), \(\epsilon \sim N(0, \sigma^2I)\)

En tal cas, la funció de densitat conjunta és \[ f(Y \mid \beta, \sigma^2) = \frac{1}{(2\pi\sigma^2)^{n/2}} \exp\left(-\frac{1}{2\sigma^2}(Y - X\beta)^T(Y - X\beta)\right)\] Llavors, prenent logaritmes obtenim:

\[ \ell(\beta, \sigma^2 \mid Y) = -\frac{n}{2} \log(2\pi\sigma^2) - \frac{1}{2\sigma^2}(Y - X\beta)^T(Y - X\beta) \]

En aquest punt podem obtenir la funció d’score derivant respecte del paràmetre \(\beta\). Recordem que les derivades involucrades són matricials.

\[ \text{Score}(\beta) = \frac{\partial \ell}{\partial \beta} = \frac{1}{\sigma^2} X^T (Y - X\beta) \] La funció d’score es vincula amb la màxima versemblança del paràmetre involucrat. Quan l’score s’anul·la, s’ha trobat un valor del paràmetre \(\beta\), en aquest cas, dels coeficients que modelitzen la recta, vinculat a un màxim en la funció de versemblança. Així, aquest valor és el que maximitxa la probabilitat d’obtenir les respostes registrades de \(X_\text{notesIA}\) a partir d’una combinació lineal de \(X_\text{notesPreIA}\) i \(X_\text{horesIA}\). Dit altrament, el valor \(\hat\beta\) tal que \(\text{Score}(\hat\beta)=0\) dona la millor manera d’explicar la mostra de notes dels estudiants a partir de les notes anteriors a l’adveniment de la IA i del seu ús. Contràriament, si el valor de \(\beta\) no anul·la l’score, vol dir que podem trobar un valor millor per maximitxar la precisió del model.

Contrast medianes multivariant

En aquesta secció realitzarem un contrast multivariant de dues mitjanes, entre les subpoblacions d’estudiants que fan servir eines de pagament i els que no. Primer feim el test amb la funció predefinida de R:

Test stat:  1.2891 
Numerator df:  3 
Denominator df:  146 
P-value:  0.7362 

Obtenim un p-valor elevat, i per tant assumim que les mitjanes són iguals. Així, no podem dir que hi hagi diferència entre les mitjanes de notes obtingudes, hores d’estudi convencional i hores d’ús de IA dels estudiants que fan servir eines d’IA gratuïtes i no.

Vegem ara el desenvolupament teòric. Suposarem que les matrius de covariàncies són desconegudes. En tal cas, l’estadístic de contrast ve donat per:

\[ \frac{n_1 + n_2 - 1 - p}{(n_1 + n_2 - 2)p} \frac{n_1 n_2}{n_1 + n_2} \left(\bar{x} - \bar{y}\right)' \hat{\mathbf{S}}^{-1} \left(\bar{x} - \bar{y}\right) \sim F^p_{n_1 + n_2 - 1 - p} \]

on
\[ \hat{\mathbf{S}} = \frac{n_1 \mathbf{S}_1 + n_2 \mathbf{S}_2}{n_1 + n_2 - 2} \] i \(S_1, S_2\) són les matrius de covariància poblacional per cada població.

[1] "L'estadístic és: "
[1] 0.423887

Obtenguem el p-valor de l’estadístic a partir de la distribució coneguda:

[1] 0.7361556

Com esperàvem, arribam al mateix valor que abans, i per tant no tenim indicis suficients per rebutjar la hipòtesi nul·la. Per tant, assumim que ambdós grups d’estudiants presenten el mateix vector de mitjanes

Conclusions

–TODO: Refer introducció per posar més concretament quins són els objectius. Fer conclusions–

Bibliografia

  1. Análisis de datos - 3  Inferencia multivariante en poblaciones normales.

  2. Cuadras, C. M. (1981) Métodos de Análisis Multivariante. Capítulo 2: Normalidad Multivariante.

  3. Apunts de l’assignatura sobre regressió lineal i contrasts d’hipòtesis.